keywords:"matrix multiplication" - Výsledky hledání - Digitální repozitář

host :: přihlásit Digitální repozitář
		Hledej		Nový záznam		Nápověda		O repozitáři

Hlavní stránka > Výsledky hledání: keywords:"matrix multiplication"

Hledej:

Tipy pro vyhledávaní :: Rozšířené hledání

Hledej ve sbírkách:

Seřadit podle:	Zobrazit výsledky:	Výstupní formát:

	Vývoj paralelních aplikací s Intel Threading Tools Vadkerti, Ladislav ; Jaroš, Jiří (oponent) ; Dvořák, Václav (vedoucí práce) Dnešním trendem v návrhu mikroprocesorů je zvyšování počtu výkonných jader na jednom čipu. Zvyšování taktovací frekvence dosáhlo svých limitů způsobených rostoucí energetickou spotřebou. Tento trend přináší nové možnosti pro softwarové vývojáře, kteří mohou využít skutečného paralelizmu ve vykonávání více vláken v rámci aplikace. Ale současný běh vláken také přináší nové problémy, které se při vývoji sekvenčních programů nemusely řešit. Správně navržená aplikace může použitím více vláken dosáhnout zlepšení výkonu lepším využitím hardwarových prostředků. Na druhou stranu, nesprávné použití vláken může vést k degradaci výkonu, nepředvídatelnému chování a chybovým stavům, které jsou těžko řešitelné. Z tohoto důvodu firma Intel vyvinula sadu nástrojů, které mají napomáhat vývojářům analyzovat výkon a detekovat chyby v interakci mezi vlákny. Tato práce se zaměřuje na možnosti použití těchto nástrojů při vývoji vícevláknových aplikací. Úplný záznam
	Implementace neuronové sítě bez operace násobení Slouka, Lukáš ; Baskar, Murali Karthick (oponent) ; Szőke, Igor (vedoucí práce) Predmetom tejto diplomovej práce je akcelerácia neurónových sietí s cieľom redukcie počtu operácií násobenia reálnych čísiel. Teoretická časť tejto práce sleduje súčasné trendy a metódy využívané v oblasti akcelerácie neurónových sietí. Najväčší dôraz je kladený na binarizačné techniky, ktoré umožňujú nahradiť násobenia logickými operátormi. Teoretický základ je zavedený do praxe hneď dvomi spôsobmi. Prvým z nich je implementácia kritických binárnych operátorov spustiteľných na GPU vo frameworku TensorFlow a ich rýchlostný benchmark. Druhým je aplikácia týchto operátorov v jednoduchom klasifikátore obrázkov. Výsledky sú rozhodne povzbudivé. Implementované operátory dosiahli 2,5-násobné zrýchlenie v porovnaní s vysoko optimalizovanými cuBLAS operátormi. Posledná kapitola práce sleduje úspešnosť dosiahnutú binarizačnými modelmi. Úplný záznam
	Efektivní implementace výpočetně náročných algoritmů na Intel Xeon Phi Šimek, Dominik ; Hrbáček, Radek (oponent) ; Jaroš, Jiří (vedoucí práce) Táto práca sa zaoberá implementáciou a optimalizáciou výpočtovo náročných algoritmov na koprocesore Intel Xeon Phi. Koprocesor Xeon Phi bol predstavený firmou Intel v roku 2012 ako odpoveď na obrovský nárast v používaní technológie GPGPU. Xeon Phi disponuje podstatne väčším výkonom ako procesor, preto je podobne ako GPGPU vhodnou platformou pre beh výpočtovo náročných programov. Xeon Phi zatiaľ v praxi nie je velmi používaný, preto je potrebné hľadať možné oblasti uplatnenia. Rozrastá sa ale jeho použitie v superpočítačových centrách, napríklad Milky Way 2 - Guangzhou (Čina), Salomon - Ostrava. Cieľom tohto dokumentu je oboznámiť čitateľa s problematikou implementácie náročných algoritmov na akceleračnej karte Xeon Phi, ich optimalizácie a meranie výkonu. Výkon koprocesoru Intel Xeon Phi bude porovnávaný s výkonom procesorov Intel Xeon. V teoretickej časti práce bude čitateľ oboznámený s architektúrou a princípmi koprocesoru Xeon Phi. Budeme sa venovať výhodám ale aj nevýhodám tohto koprocesoru, ktoré budú často porovnávané s všeobecnými vlastnosťami procesorov. Témou bude taktiež otázka, kedy je vhodné zvoliť pre výpočet akcelerečnú kartu Xeon Phi a kedy procesor. Detailne si vysvetlíme a znázorníme výber vhodných algoritmov pre Xeon Phi, postup ich implementácie, optimalizácie a meranie výkonu. Okrem toho budú rozoberané problémy a úskalia, ktoré môžu nastať pri implementácii algoritmov a používaní koprocesoru. Dané demonštrujeme najskôr na ukážkových problémoch, ktoré boli riešené na Ostravskom superpočítači Anselm. V prvom rade to budú jednoduché benchamrky typu násobenie matíc, násobenie matice a vektora, na ktorých budú ukázané základné princípy implementácie optimálnych algoritmov pre koprocesor Xeon Phi. Napríklad pri benchmarku násobenia matice a vektora bolo dosiahnutých asi 6.5% teoretického výkonu koprocesoru. Ďalším, komplexnejším problémom bude N-Body Simulation - simulácia pohybu častíc v priestore, na ktorom sme otestovali potenciál Xeon Phi. Výkon koprocesoru sa pri tomto benchmarku vyšplhal až na viac ako 35% teoretického výkonu - 725 gFLOPS (maximálny výkon 2000 gFLOPS pre dáta s jednoduchou presnosťou). Čitateľ sa okrem iného môže dozvedieť aj zaujímavé informácie z oblasti fyzikálnych simulácií, konkrétne bude reč o module pre MATLAB (k-Wave). K-Wave sa zaoberá simuláciou šírenia akustických vĺn v 1D, 2D a 3D, čo sa využíva napríklad pri simulácii šírenia ultrazvukových vĺn v mäkkých tkanivách. Na koniec si stručne povieme o portovaní už existujúcich knižníc, modulov či programov na Xeon Phi zo snahou využitia jeho potenciálu. Bude to napríklad kroskompilácia knižníc HDF5, ZLIB či konca interpretu jazyka Python s modulmi Numpy a Scipy. Úplný záznam
	Implementace neuronové sítě bez operace násobení Slouka, Lukáš ; Baskar, Murali Karthick (oponent) ; Szőke, Igor (vedoucí práce) Predmetom tejto diplomovej práce je akcelerácia neurónových sietí s cieľom redukcie počtu operácií násobenia reálnych čísiel. Teoretická časť tejto práce sleduje súčasné trendy a metódy využívané v oblasti akcelerácie neurónových sietí. Najväčší dôraz je kladený na binarizačné techniky, ktoré umožňujú nahradiť násobenia logickými operátormi. Teoretický základ je zavedený do praxe hneď dvomi spôsobmi. Prvým z nich je implementácia kritických binárnych operátorov spustiteľných na GPU vo frameworku TensorFlow a ich rýchlostný benchmark. Druhým je aplikácia týchto operátorov v jednoduchom klasifikátore obrázkov. Výsledky sú rozhodne povzbudivé. Implementované operátory dosiahli 2,5-násobné zrýchlenie v porovnaní s vysoko optimalizovanými cuBLAS operátormi. Posledná kapitola práce sleduje úspešnosť dosiahnutú binarizačnými modelmi. Úplný záznam
	Vývoj paralelních aplikací s Intel Threading Tools Vadkerti, Ladislav ; Jaroš, Jiří (oponent) ; Dvořák, Václav (vedoucí práce) Dnešním trendem v návrhu mikroprocesorů je zvyšování počtu výkonných jader na jednom čipu. Zvyšování taktovací frekvence dosáhlo svých limitů způsobených rostoucí energetickou spotřebou. Tento trend přináší nové možnosti pro softwarové vývojáře, kteří mohou využít skutečného paralelizmu ve vykonávání více vláken v rámci aplikace. Ale současný běh vláken také přináší nové problémy, které se při vývoji sekvenčních programů nemusely řešit. Správně navržená aplikace může použitím více vláken dosáhnout zlepšení výkonu lepším využitím hardwarových prostředků. Na druhou stranu, nesprávné použití vláken může vést k degradaci výkonu, nepředvídatelnému chování a chybovým stavům, které jsou těžko řešitelné. Z tohoto důvodu firma Intel vyvinula sadu nástrojů, které mají napomáhat vývojářům analyzovat výkon a detekovat chyby v interakci mezi vlákny. Tato práce se zaměřuje na možnosti použití těchto nástrojů při vývoji vícevláknových aplikací. Úplný záznam
	Využití GPU pro náročné výpočty Máček, Branislav ; Szőke, Igor (oponent) ; Kašpárek, Tomáš (vedoucí práce) Pojem vysoko náročné výpočty (po anglicky High Performance Computig HPC) sa používa v súvislosti s paralelne prepojenými superpočítačmi alebo klastrami počítačov. Tieto systémy sú obyčajne budované z bežne komerčne dostupných, možno ich nazvať aj mainstreamových, počítačových komponentov. Cieľom tejto práce je nájst možnosti budovania HPC systemov pomocou GPU. Práca popisuje architektúru GPU, programové nástroje na ich využitie. Ďalej sa venuje návrhu testovacích aplikácii, zhodnoteniu výsledkov a ich porovnaním s inými komponentami použiteľnými na budovanie HPC systémov. Úplný záznam
	Efektivní implementace výpočetně náročných algoritmů na Intel Xeon Phi Šimek, Dominik ; Hrbáček, Radek (oponent) ; Jaroš, Jiří (vedoucí práce) Táto práca sa zaoberá implementáciou a optimalizáciou výpočtovo náročných algoritmov na koprocesore Intel Xeon Phi. Koprocesor Xeon Phi bol predstavený firmou Intel v roku 2012 ako odpoveď na obrovský nárast v používaní technológie GPGPU. Xeon Phi disponuje podstatne väčším výkonom ako procesor, preto je podobne ako GPGPU vhodnou platformou pre beh výpočtovo náročných programov. Xeon Phi zatiaľ v praxi nie je velmi používaný, preto je potrebné hľadať možné oblasti uplatnenia. Rozrastá sa ale jeho použitie v superpočítačových centrách, napríklad Milky Way 2 - Guangzhou (Čina), Salomon - Ostrava. Cieľom tohto dokumentu je oboznámiť čitateľa s problematikou implementácie náročných algoritmov na akceleračnej karte Xeon Phi, ich optimalizácie a meranie výkonu. Výkon koprocesoru Intel Xeon Phi bude porovnávaný s výkonom procesorov Intel Xeon. V teoretickej časti práce bude čitateľ oboznámený s architektúrou a princípmi koprocesoru Xeon Phi. Budeme sa venovať výhodám ale aj nevýhodám tohto koprocesoru, ktoré budú často porovnávané s všeobecnými vlastnosťami procesorov. Témou bude taktiež otázka, kedy je vhodné zvoliť pre výpočet akcelerečnú kartu Xeon Phi a kedy procesor. Detailne si vysvetlíme a znázorníme výber vhodných algoritmov pre Xeon Phi, postup ich implementácie, optimalizácie a meranie výkonu. Okrem toho budú rozoberané problémy a úskalia, ktoré môžu nastať pri implementácii algoritmov a používaní koprocesoru. Dané demonštrujeme najskôr na ukážkových problémoch, ktoré boli riešené na Ostravskom superpočítači Anselm. V prvom rade to budú jednoduché benchamrky typu násobenie matíc, násobenie matice a vektora, na ktorých budú ukázané základné princípy implementácie optimálnych algoritmov pre koprocesor Xeon Phi. Napríklad pri benchmarku násobenia matice a vektora bolo dosiahnutých asi 6.5% teoretického výkonu koprocesoru. Ďalším, komplexnejším problémom bude N-Body Simulation - simulácia pohybu častíc v priestore, na ktorom sme otestovali potenciál Xeon Phi. Výkon koprocesoru sa pri tomto benchmarku vyšplhal až na viac ako 35% teoretického výkonu - 725 gFLOPS (maximálny výkon 2000 gFLOPS pre dáta s jednoduchou presnosťou). Čitateľ sa okrem iného môže dozvedieť aj zaujímavé informácie z oblasti fyzikálnych simulácií, konkrétne bude reč o module pre MATLAB (k-Wave). K-Wave sa zaoberá simuláciou šírenia akustických vĺn v 1D, 2D a 3D, čo sa využíva napríklad pri simulácii šírenia ultrazvukových vĺn v mäkkých tkanivách. Na koniec si stručne povieme o portovaní už existujúcich knižníc, modulov či programov na Xeon Phi zo snahou využitia jeho potenciálu. Bude to napríklad kroskompilácia knižníc HDF5, ZLIB či konca interpretu jazyka Python s modulmi Numpy a Scipy. Úplný záznam
	Fast nondeterministic matrix multiplication via derandomization of Freivalds' algorithm (Revised corrected version) Wiedermann, Jiří Plný tet: v1209-14 - PDF Plný text: content.csg - PDF Úplný záznam

Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.

Digitální repozitář :: :: :: ::
Powered by v1.1.2
Spravuje

Tato stránka je dostupná také v následujících jazycích:
Česky English